1
硬體瓶頸:記憶體與資源限制
AI032Lesson 5
00:00

現代高效能運算面臨一個根本性的 「記憶體壁壘」:計算吞吐量(每秒浮點運算次數,FLOPS)的爆炸性成長,遠遠超過了記憶體頻寬的微小提升 全域記憶體 頻寬。這種差異使得大型多核心陣列變成了「飢餓」的處理器,只能等待資料傳輸。

1. 頻寬差距

雖然GPU每秒可執行數兆次運算,但通往記憶體(DRAM)的物理路徑受到接腳密度與電力需求的限制。 記憶體作為平行化的主要限制因素 表示當併發執行緒數增加時,每個執行緒的頻寬會下降,導致硬體處於停滯狀態,無法有效運作。

2. 廚房類比

想像一個先進的廚房(即GPU核心),每小時可製作1,000份餐點。然而,食材存放在五英里外的倉庫(全域記憶體)中,且只有一輛送貨機車(記憶體匯流排)。不管聘請多少主廚,產出上限仍由機車的速度決定。

3. 架構對比

一般 多核心CPU系統 利用龐大的快取來隱藏少量繁重執行緒的延遲。然而,大型平行架構卻持續面臨大量併發請求造成的「交通擁塞」。 資源限制 在暫存器與共用記憶體層級的資源限制,決定了硬體過載前所能達到的最大平行度(佔用率)。

運算強度(每字節浮點運算次數,FLOPs/Byte)效能(每秒十億次浮點運算,GFLOPS)記憶體受限運算受限(峰值)
main.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>